资料图片:汉字之美
【四】汉字统一编码 不为人知的内幕
“(汉字统一编码)这个工作做得很艰苦,从一开始就充满了矛盾和斗争,”张轴材告诉《环球》杂志记者,“此间中方的努力从未被公开报道过。但我敢说,这是中国大陆、台湾、香港和澳门密切合作,最有成效的项目之一。”
张轴材应该是有一定发言权的。他曾是中日韩联合研究组(CJK-JRG)的主编兼召集人,是汉字国际编码的主要制定者之一。在他的讲述中,一些鲜为人知的事件浮出了水面。
上世纪80年代末,随着信息技术的发展,为了在网络上能正确无障碍地传输汉字,计算机里处理交换用的汉字代码需要有一套认同规则。在前全国计算机技术标准化委员会主任、工程院院士陈力为的支持下,中国建立起一个跨部委的工作组,其工作内容是被列为“七五”攻关项目之一的汉字内码与数据类型标准化。
“我们做着做着就发现原目标设定得太低了,当时代码的混乱到了很危险的地步,可以说是‘万码奔腾’。IBM、DEC、NEC、日立、富士通、AT&T等大公司使用的汉字内码都不一样。虽然那时还没有一个网络世界,但可以预见到如此发展,这将来会变成阻碍沟通和发展的大问题,”时任工作组副组长的张轴材对当时的忧虑还记忆犹新,“不仅如此,当时台湾已经流行BIG-5码,即俗称的‘大五码’,大陆则在发展多个GB(国标)字符集标准,两岸走了不同的道路,这种分歧已不容忽视。”
1988年,中国建立了通用国际代码联合会(ACCC)。“这个协会完全按国际规则来操作。在汉字问题上,如果中国人内部都不同,还怎么跟别人谈,所以首先两岸要同。虽然当时两岸形势复杂,沟通困难,但我们努力跟台湾方面取得了联系,问他们是否感兴趣。他们表示了高度兴趣。这下,统一的基础就有了。”张轴材回忆说。
的确,有了态度的统一,也就有了会谈的可能。1989年春节后,大陆和台湾的代表团在香港碰面了。台湾方面为首的是有台湾“IT教父”之称的宏基董事长施振荣,台北电脑公会的各大电脑公司,而大陆则去的是国家科委、国家语委、电子部、标准局委等部门的代表。
“那时有个非常有意思的场面,双方都问‘咱们怎么办’,GB(国标)和BIG-5 怎么走到一起呢?我们提议先背靠背讨论一下,然后互亮底牌,结果发现想法是一致的,都是要借着ISO(国际标准化组织)汉字编码的开发,让它近期成为两岸交换之标准,远期成为两岸共通之标准。”
会谈结束后,两岸都有了实际的行动。台湾把资料都汇总到大陆,工作紧锣密鼓地开展,把字都揉在一起,进行认同和甄别,并建立多字符集汉字数据库,同时中方也秘密地把日本和韩国的汉字也纳入了多字符集汉字数据库。
1989年,在国际标准化组织(ISO)的会议上,中方代表大陆、台湾、香港和澳门正式提出中日韩统一编码的N480提案,并提出了具体方案,引起轩然大波。文字工作者、IT界人士都展开了热烈的讨论。在国际上,最强烈反对提案的是日本。韩国基本上不表态。而美国作为许多大工业公司的代表,站在了支持的一方。
谈到这些往事,张轴材至今对很多人心存感谢:“这是个技术外交与技术开发并行的工作。在ISO会上,每次都吵架,主要是跟日本人辩论。日本代表很强硬,我虽然是初次当发言人,但一点也不胆怯,因为我身后有国家好几个部委的支持、中文信息学会的支持、团队的支持、两岸四地一大批专家的支持,同时还有一批非常有远见的、在大IT公司任高职的华人的支持,特别要提出的是IBM王学猛、DEC 公司叶三闾、香港ITF的郑家安、台北电脑公会的苏亮、杜全昌。”
因为支持派和反对派相持不下,韩国提出到汉城开特别会议。就在1990年的特别会议上,中日韩决定折中建立CJK-JRG,并通过了三国轮流坐庄的机制。后来在进入CJK汉字认同甄别的实质性阶段时,各方觉得老轮流坐庄,效率不高,于是,张轴材被任命为CJK-JRG的主编兼召集人。
很快,在ISO的会议上开始讨论汉字编码的方案。产生了一个重要决议:以中国的多字符集为基础,生成字表。这是我们“七五”科技攻关的一个重要成果。但是在字序问题上,曾经相持不下。美国一度提出在字序上把日本JIS汉字放在前头,以换取日本人的支持。中国当然不干。于是,1990年春节那几天,在多伦多举行了秘密会谈。在会上,中国提出回到《康熙字典》序为首、《大汉和》《大字源》和《汉语大字典》序为辅的排序建议,随后成为了各方同意的妥协方案。
在不断讨论中,中日韩已达成两点共识,一是按文字编码,而不是按国家、地域、语言编码;二是要按字形统一编码,而不是按字音、字义或具体的造型编码。大家越来越认识到这是正确的方向。ISO用投票来表决是否支持汉字统一编码,结果在 1990年旧金山会议上,以16比2的表决结果,达成了决议。
1993年,ISO/IEC 10646-1《信息技术通用多八位编码字符集第一部分体系结构与基本多文种平面》正式发布。中国等同采用此标准制定了GB 13000.1-1993。该标准采用了全新的多文种编码体系,收录了中、日、韩20902个汉字。
“在汉字的国际编码问题上,中方一直是主导,这一点毫无疑问。”张轴材称,现在标准制订的大方向没有问题了,虽然在国际会议上,各方仍然为了各自的利益争论不休,但已经有了基本规则,ISO10646(GB13000/Unicode)已成为主流编码。